COVID-19病毒肆虐,疫情数据如何辨真伪?
自COVID-19新冠状病毒肺炎疫情爆发以来,作为镝次元数据分析团队的数据专家,我一直在跟踪研究疫情数据。除了政府官方数据之外,我们还同步监测全国腾讯,新浪,网易,搜狐,凤凰,澎湃,丁香园,头条,百度,财新,支付宝11家媒体和机构发布的数据。
昨天早上,监控平台显示的媒体数据差异让我有些担忧。
我们提供昨天上午监测到的各家媒体关于疫情的数据文档(详见文末文档附件一),四家看起来都在实时公布数据的网站,数据差异很大。请看:“较昨日新增”这一项数据,凤凰网在2月14日上午9:03 是15153例;网易在9:05 是5030例;腾讯在9:06 是3989例;新浪在9:11是4857例。
这是什么原因?
数据来源都一样,都是国家卫健委、各省市区卫健委、各省市区政府以及港澳台官方渠道的公开数据。也都说是权威发布、实时数据。但为什么差异如此巨大?我们到底该信哪一家的?这会不会带来数据误传误用的风险?
我们研究监测到的数据记录后发现,造成这一现象的原因主要包括以下几个方面:
1.近期统计口径发生了变化,湖北省新纳入了“临床确诊病例”这个维度,把“临床确诊”算到确诊,以前这部分是属于疑似病例的。这种改变让各大媒体出现了短暂的迷茫与数据统计方式上的不统一;
2. 对每天的数据收集处理方法不同,一些媒体对于疫情数据采取增量记录的形式(图1);一些媒体对于疫情数据采用累积总量的形式(图2);
图1
图2
3. 数据更新频率不同,一些媒体每天更新一次或者若干次数据,一些媒体是采用实时更新的方式来展示数据的。
以上的因素都会或多或少的对您看到的数据产生影响。这似乎为五花八门的疫情数据找到了原因。
但是下一个问题来了,到底相信谁的数据、用谁的数据呢?这个问题的答案取决于你是谁,你为什么要用这些数据?
目前我接触到的主要是两类人群:
第一类:专业人士。
通过疫情数据来做数据分析或者科学研究,对于这类数据使用者,他们的特点是数据使用场景专业,采用数据十分严谨。建议专业人士通过权威的数据来源获取数据,并且及时与政府发布网站进行数据核查,保证数据的准确性;
第二类:非专业人士。
这类人群并不是那么在意某些特定的细节数值,只是想通过数据来观察疫情的总体趋势,这种情况下就不用纠结于细节的数字,主要看趋势。但如果您对数据非常认真或存疑,建议还是去各级卫建委官网查看数据。
如果大家觉得去官网查找和整理数据麻烦,也欢迎到我们镝数 (dydata.io)查找数据,我们平台收录了官方权威网站、澎湃新闻美数课、丁香园等来源的全球、全国以及各省市级疫情数据,每日更新,目前也在为中央电视台、湖北日报、湖南卫视等媒体提供数据支持 。除此之外我们也提供疫情相关的其他数据供大家参考比如SARS相关数据等。
另外再推荐一下澎湃美数课整理的共享疫情数据文档(见文末附件二)。在这次疫情数据的收集与整理上,澎湃美数课除了开放自己的疫情实时地图为公众提供第一手数据外,还非常贴心的整理了每天全球、全国各级的增量数据,多维度的数据收集与整理为疫情现状与发展趋势提供了完备的数据基础,很值得一看。
我们昨天还注意到丁香园的疫情数据指标有了新的变化,全国数据统计指标由原来的3个变成现在的6个。从这点也看出国家对于疫情的掌握越来越细致,各方面对数据的统计也是越来越清晰了,这里只想对“现存确诊”这个属性从数据的角度做一个解释,方便用户更好的理解数据,即:
现存确诊 = 累计确诊 - 累计死亡 - 累计治愈
综上所述,我们日常查看数据新闻可视化内容或者使用数据时,一定要确认以下三点:
收集数据的截至时间或收集数据时间范围的一致性
数据的来源:数据是否是权威机构发布(国家卫健委,统计局等)
数据本身在同一时间维度上的其他信息维度是否一致(地理位置,人物,信息粒度大小)
文档附件一:疫情数据发布数据镝数监测-2月14日
https://shimo.im/sheets/Chyq3JXhc8TXKrc6/Qcpqa/
注:疫情数据地图的数据更新频率情况是通过技术手段监控获得,以上是监测自真实数据的若干数据片段,旨在为文中数据观点提供必要的实际佐证。
文档附件二:澎湃美数课新型肺炎疫情数据&报道整理文档
https://shimo.im/sheets/tyWrrrqppYVwQtCW/
编辑 | 小宅
版面 | 苍耳
责编 | 张睿
镝数平台作为一家数据查找和可视化公司,为支援疫情公共信息报道和远程办公,镝数向所有个人用户免费赠送企业会员权限,扫描下方二维码即可领取使用。
近期热词